Phân tích protein là gì? Các nghiên cứu khoa học liên quan
Phân tích protein (proteomics) là lĩnh vực khoa học nghiên cứu toàn diện thành phần, cấu trúc, chức năng và tương tác của protein trong tế bào hoặc mô để hiểu cơ chế sinh học ở mức phân tử. Proteomics bao gồm định danh và định lượng protein, đặc trưng hóa sửa đổi hậu dịch mã và xây dựng mạng lưới tương tác, ứng dụng trong khám phá sinh vật chỉ điểm, mục tiêu thuốc và vaccine.
Tổng quan về phân tích protein
Phân tích protein (proteomics) là lĩnh vực khoa học chuyên sâu nghiên cứu toàn diện cấu trúc, chức năng, tương tác và định lượng protein trong tế bào, mô hoặc sinh vật. Khác với genoma học chỉ tập trung vào thành phần di truyền, proteomics nghiên cứu sản phẩm thực sự của gen là protein, đồng thời đánh giá các biến đổi hậu dịch mã và sửa đổi hóa học sau dịch mã (PTMs) ảnh hưởng đến hoạt tính sinh học.
Mục tiêu của proteomics bao gồm: (1) định danh tất cả protein có mặt trong một mẫu; (2) định lượng thay đổi biểu hiện protein dưới các điều kiện sinh lý hoặc bệnh lý khác nhau; (3) đặc trưng hóa sửa đổi hóa học như phosphoryl hóa, glycosyl hóa; (4) xây dựng mạng lưới tương tác protein–protein để hiểu đường dẫn tín hiệu và cơ chế bào tương.
Ứng dụng chính của proteomics bao gồm phát hiện sinh vật chỉ điểm (biomarker) cho chẩn đoán bệnh, khám phá mục tiêu thuốc (drug target), và đánh giá hiệu quả điều trị. Với công nghệ khối phổ (MS) hiện đại, proteomics đã đóng góp quan trọng trong nghiên cứu ung thư, bệnh tim mạch, thần kinh học và đáp ứng miễn dịch.
Cấu trúc và chức năng của protein
Protein có bốn cấp độ cấu trúc cơ bản. Cấp độ sơ cấp (primary) là chuỗi amino acid liên kết bằng liên kết peptid; cấp độ thứ cấp (secondary) hình thành cấu trúc α-helix và β-sheet nhờ liên kết hydro giữa nhóm NH và C=O trên mạch chính.
Cấp độ thứ ba (tertiary) mô tả cách chuỗi polypeptide gấp nếp không gian, tạo thành cấu trúc ba chiều duy trì hoạt tính enzyme và khả năng tương tác; cấp độ bốn (quaternary) là tổ hợp nhiều tiểu đơn vị polypeptide để hình thành phức hợp chức năng, ví dụ hemoglobin gồm bốn chuỗi globin.
- Primary: chuỗi amino acid
- Secondary: α-helix, β-sheet
- Tertiary: cấu trúc ba chiều
- Quaternary: phức hợp đa tiểu đơn vị
Chức năng protein phụ thuộc vào cấu trúc không gian và PTMs. Ví dụ, phosphoryl hóa trên tyrosine hoặc serine/threonine có thể bật/tắt hoạt tính kinase; glycosyl hóa ảnh hưởng đến độ bền và phân bố màng tế bào.
Phương pháp tách và phân tách protein
Trước khi phân tích khối phổ, protein thường được tách khỏi mẫu sinh học và phân tách theo các đặc trưng vật lý – hóa học. Điện di hai chiều (2D-PAGE) là kỹ thuật truyền thống, tách protein theo điểm đẳng điện (pI) trong chiều một và kích thước phân tử trong chiều hai, cho phép phân biệt hàng nghìn protein trên gel.
Sắc ký lỏng (LC) và sắc ký thấm gel (size-exclusion), sắc ký trao đổi ion (ion-exchange), sắc ký gắn affinity (affinity chromatography) cũng được ứng dụng để phân tách trước khi khối phổ. Western blot sử dụng kháng thể đặc hiệu để định danh protein mục tiêu, cung cấp thông tin định tính.
- 2D-PAGE: tách theo pI và khối lượng phân tử.
- Chromatography: thấm gel, trao đổi ion, affinity.
- Western blot: định danh bằng kháng thể.
Phương pháp | Đặc tính | Ứng dụng |
---|---|---|
2D-PAGE | Phân tách kép | Khảo sát mẫu phức tạp |
LC-MS/MS | Độ nhạy cao | Định danh, định lượng |
Affinity chromatography | Chọn lọc cao | Tách protein đặc hiệu |
Kỹ thuật khối phổ (Mass Spectrometry)
Mass spectrometry (MS) là phương pháp trung tâm trong proteomics, đo tỷ lệ khối lượng trên điện tích (m/z) của peptide. Quy trình bao gồm: cắt protein thành peptide bằng trypsin; ion hóa (ESI hoặc MALDI); phân tích m/z trên máy MS/MS để phân tích trình tự peptide và đặc trưng PTMs.
Trong MS/MS, phổ m/z của ion gốc được tách tiếp thành mảnh fragment, cho phép suy luận trình tự amino acid. Thư viện dữ liệu peptide và phần mềm như Mascot, MaxQuant hỗ trợ đối chiếu phổ thực nghiệm với cơ sở dữ liệu, định danh protein nhanh chóng.
Độ phân giải và độ chính xác khối lượng cao (>50,000 resolución) giúp phân biệt peptide có khối lượng rất sát nhau, tạo điều kiện phát hiện biến thể vi mô và sửa đổi sau dịch mã.
Phân tích định lượng protein
Phân tích định lượng protein là bước then chốt trong proteomics nhằm so sánh mức biểu hiện hoặc sửa đổi sau dịch mã của protein giữa các điều kiện sinh lý, bệnh lý hay xử lý thuốc khác nhau. Có hai hướng chính:
- Label-free quantification: dựa trên cường độ tín hiệu peptide (peak intensity) hoặc số lượng phổ (spectral count) trong dữ liệu MS/MS. Phương pháp này không cần gắn nhãn mẫu, phù hợp cho phân tích nhiều mẫu nhưng yêu cầu chuẩn hóa chặt chẽ để giảm nhiễu biến đổi kỹ thuật.
- Stable isotope labeling: sử dụng đồng vị nặng để đánh dấu peptide, ví dụ SILAC (Stable Isotope Labeling by Amino acids in Cell culture) hoặc TMT (Tandem Mass Tag). Mẫu được trộn lẫn sau giai đoạn gắn nhãn, phân tích chung, cho kết quả định lượng tương đối chính xác và so sánh đồng thời nhiều điều kiện.
Phương pháp | Ưu điểm | Nhược điểm |
---|---|---|
Label-free | Không cần nhãn, chi phí thấp, linh hoạt | Ảnh hưởng nhiễu kỹ thuật, cần chuẩn hóa |
SILAC | Định lượng chính xác, ít sai số mẫu | Chỉ áp dụng cho tế bào nuôi cấy, chi phí cao |
TMT | So sánh nhiều mẫu (6–16) cùng lúc | Chi phí kit cao, tỷ lệ gắn nhãn không hoàn toàn |
Sinh học mạng tương tác protein (Protein–Protein Interaction)
Protein–protein interaction (PPI) mapping là công cụ quan trọng để hiểu cách protein hợp thành phức hợp và điều phối đường dẫn tín hiệu. Các phương pháp phổ biến bao gồm:
- Yeast two-hybrid: hệ thống tương tác dựa trên phục hồi chức năng của yếu tố phiên mã trong nấm men, định danh cặp protein tương tác nhanh chóng ở quy mô gen.
- Co-immunoprecipitation (Co-IP): sử dụng kháng thể đặc hiệu kéo theo phức hợp protein mục tiêu, sau đó phân tách và định danh qua Western blot hoặc MS.
- Cross-linking MS: hóa chất cross-linker tạo cầu nối giữa các protein liền kề, sau đó phân tích MS để xác định vị trí liên kết và mô phỏng cấu trúc phức hợp.
Các dữ liệu PPI thường được lưu trữ và khám phá qua cơ sở dữ liệu như STRING (string-db.org) và BioGRID (thebiogrid.org), hỗ trợ xây dựng mạng lưới tương tác và ứng dụng phân tích mạng (network analysis) để tìm nút (hub) quan trọng và mô đun chức năng.
Ứng dụng trong y sinh và dược học
Proteomics đã tạo ra bước đột phá trong y sinh, từ giai đoạn khám phá tới lâm sàng:
- Biomarker phát hiện sớm: định danh protein khác biệt trong huyết thanh, nước tiểu hoặc dịch lỏng cơ thể cho chẩn đoán ung thư (NCBI PMC), bệnh tim mạch và bệnh lý thần kinh.
- Drug target discovery: tìm protein mục tiêu điều trị bằng phân tích tương tác thuốc–protein và khảo sát biểu hiện trong mô bệnh lý.
- Vaccine design: xác định kháng nguyên protein bề mặt vi sinh vật qua proteome, phát triển vaccine tái tổ hợp và peptide (WHO Vaccine R&D).
- Drug resistance monitoring: phân tích biến đổi protein liên quan kháng thuốc trong ung thư hoặc vi khuẩn, hỗ trợ điều chỉnh phác đồ điều trị.
Thách thức kỹ thuật và dữ liệu
Proteomics phải đối mặt với một số khó khăn chính:
- Độ động và dải nồng độ protein rộng: protein nội bào có thể dao động từ femtomolar đến millimolar, làm hạn chế khả năng phát hiện protein ít biểu hiện.
- Phức tạp mẫu sinh học: huyết thanh và mô chứa các protein chiếm ưu thế như albumin hoặc actin, cần bước tiền xử lý để làm giàu protein mục tiêu.
- Khối lượng dữ liệu lớn: mỗi phép LC-MS/MS tạo ra hàng triệu spectra, đòi hỏi pipeline bioinformatics mạnh như MaxQuant, Proteome Discoverer, cùng thuật toán machine learning để phân tích và lọc false positive.
Việc chuẩn hóa quy trình mẫu, kiểm soát batch effect và sử dụng các bộ chuẩn nội (internal standards) là cần thiết để đảm bảo kết quả reproducible và so sánh giữa phòng thí nghiệm khác nhau.
Xu hướng và công nghệ tương lai
Proteomics đang phát triển hướng tới độ nhạy và độ phân giải cao hơn:
- Single-cell proteomics: sử dụng nanoLC và ion mobility MS để phân tích protein từ một tế bào đơn, mở ra khả năng khám phá đa dạng biểu hiện trong quần thể tế bào (Nature Biotech.).
- Top-down proteomics: phân tích protein toàn vẹn thay vì peptide, cho thông tin đầy đủ về isoform và PTMs nhưng đòi hỏi MS độ phân giải cực cao.
- AI và machine learning: dự đoán cấu trúc protein và tương tác từ dữ liệu proteome, hỗ trợ thiết kế thuốc và phân tích mạng lưới sinh học.
- Microfluidics và droplet-based MS: tích hợp quy trình xử lý mẫu và ion hóa trong chíp nhỏ, tăng throughput và giảm lượng mẫu cần thiết.
Danh mục tài liệu tham khảo
- Aebersold R. & Mann M. “Mass-spectrometric exploration of proteome structure and function.” Nature, 537:347–355, 2016.
- Smith L.M. & Kelleher N.L. “Proteoform: a single term describing protein complexity.” Nat. Methods, 10(3):186–187, 2013.
- Cox J. & Mann M. “Quantitative, high-resolution proteomics for data-driven systems biology.” Ann. Rev. Biochem., 80:273–299, 2011.
- Uniprot Consortium. “UniProt: a worldwide hub of protein knowledge.” Nucleic Acids Res., 47(D1):D506–D515, 2019. https://www.uniprot.org
- Eng J.K. et al. “A deeper look into the data: understanding proteomics databases.” J. Proteome Res., 18(6):2030–2041, 2019.
Các bài báo, nghiên cứu, công bố khoa học về chủ đề phân tích protein:
- 1
- 2
- 3
- 4
- 5
- 6
- 10